요인 분석 (문단 편집)

== 소개 ==
{{{+1 [[要]][[因]][[分]][[析]] / Factor analysis}}}

양적 분석방법 중의 하나로, '''다수 혹은 대량의 측정된 자료를 처리하여, 기존에는 관찰되지 않았으나 의미 있는 소수의 요인들을 추출하는 방법'''이다. 인자분석(因子分析)이라는 번역어와도 혼용되며, 특히 [[일본]] 학계에서 이런 표현을 쓰기도 하지만 국내에서도 표준국어대사전에 올라 있는 용어다.

요인분석은 분석가가 갖고 있는 분석목적에 따라 두 가지로 분류된다. 먼저 '''탐색적 요인분석'''(이하 EFA; exploratory factor analysis)은 기존에 요인모형이 존재하지 않는 상태에서 요인을 어림해 만들어 보는 것이다. 당연히, EFA를 거쳐 만들어진 요인모형은 검증되지 않은 것이기 때문에 남들에게 설득력 있게 제시할 수가 없다. 그렇기 때문에 연구자는 반드시 '''확인적 요인분석'''(이하 CFA; confirmatory factor analysis)을 거쳐서 그 모형이 정말로 적합하게 만들어졌는지, 요인구조에서 손봐야 할 곳이나 다듬을 점은 없는지 확인해야 한다.

때로는 여러 요인들의 배후에 존재하는 또 다른 요인을 찾아내기 위한 방법인 '''고차요인분석'''(higher-order factor analysis) 같은 것도 활용되곤 하지만, 이는 연구상황에 비추어서 요인이 너무 많고 복잡하다 싶을 때 연구자가 주체적으로 결정해야 하는 부분이다.

방금 언급한 "복잡함" 을 줄이는 것이 바로 요인분석의 특기다. 요인분석은 '''복잡한 추상적 개념을 간명하게 정리한다.''' 요인분석이 가장 싫어하는 것이 바로 복잡한 설명이다. 다양한 현상으로 나타나는 본질적인 하나의 특성(개념)을 찾고 싶을 때, 그것의 본질을 해치지 않는 선에서 최대한 명쾌하게 설명할 길을 찾는다. 따라서 요인분석에는 (다른 분석들과는 달리) [[독립 변인|독립변인]]이니 [[종속 변인|종속변인]]이니 하는 개념들이 일체 불필요하다.

또한 요인분석은 '''질적인 의미해석을 위해 양적인 방법에 의존한다.''' 본 문서는 문두에서부터 '양적 분석방법 중의 하나' 라고 말하긴 했지만, 엄밀하게 말하자면 '양적으로 계산한 결과를 __주관적으로 해석__하는 분석방법' 이라고 보아야 한다. 당장 요인이라는 개념부터가 통계적으로 드러나지는 않았으되 분석가가 임의로 의미를 부여함으로써 성립하는 것이기 때문이다. 정말 주관적 해석을 싹 배제한 분석은 하술할 [[주성분 분석|주성분분석]](이하 PCA; principal component analysis)이 오히려 더 가깝다. 그래서 응용학문보다는 순수학문적 성격이 강한 [[통계학]]자일수록 요인분석에 시큰둥해하고 PCA에 관심을 갖는 경향이 있다. 대표적으로 통계학과 학부생들이 쓰는 유명 회귀분석 교과서를 보면 PCA를 활용한 회귀분석응 설명하는 교과서는 많지만, 요인분석의 결과물을 사용한 회귀분석을 설명하는 교과서는 없다. [[사회과학]]계에서도 [[계량경제학]] 같은 '하드한' 분야에서는 PCA를 적극적으로 가져다 쓴다.[* 대표적으로 GDP를 사용한 대형 시계열 분석이 있다. GDP는 분기별로 산출되는 데이터이기 때문에 일, 주, 월 단위로 생성되는 경제시계열 데이터에 비해 관측치가 적다. 거기에 경제 시계열 데이터는 대부분 비슷한 움직임을 보이는 경우가 많기 때문에, 거시경제 데이터를 시계열 분석하다보면 관측자료의 설명력에 비해 추정해야하는 모수가 너무 많아지는 문제가 발생한다. 이런 경우 PCA의 결과물을 사용하는 것이 하나의 대안이 될 수 있다.] [[마케팅]] 등의 '당장 써먹어야 하는' 분야에서는 요인분석(특히 CFA)을 집중적으로 파는 경향이 있다.

사실 학문적으로 따지자면 요인분석은 '''[[심리학]]계에 가장 큰 빚을 지고 있다.''' 당초 [[1869년]]에 [[프랜시스 골턴]](F.Galton)이 그 논리적 기초를 다진 뒤, 하나의 [[연구방법론]]으로서 처음 데뷔한 것이 [[1904년]] 찰스 스피어만(C.Spearman)의 [[지능|일반지능(general intelligence)]]에 대한 연구에서였다.[* Spearman, C. (1904). "General intelligence": Objectively determined and measured. The American journal of psychology, 15(2), 201-292.] 여기서 그는 '지능' 이라는 밑도끝도 없이 뜬구름 잡는 개념을 명쾌하게 설명하기 위해 "인간의 지능은 일반적인 요인과 특수한 요인으로 나누어진다" 는 방법론적 전제를 세워놓았다. 어설프게나마 예를 들어서 수학 점수가 60점이고 체육 점수가 90점이라면, 두 과목 점수의 60점은 일반적인 지능 덕분에, 체육 점수의 나머지 30점은 체육에만 한정된 특수한 지능 덕분에 가능했다는 얘기다.

요인분석을 공부할 경우, [[통계학과]] 학생들은 다변량분석을 공부하면서 같이 배운다. 보통 [[선형대수학]]과 수리통계학을 배운 후에 접하기 때문에 처음부터 끝까지 [[행렬]]이다. 통계학과 고학년 수업에 행렬아닌 걸 찾아보기가 더 힘들긴 하지만... 실제로 요인분석은 그 배경지식으로서 행렬에 대한 수학적 이해가 필수적이다.

한편 [[사회과학]] 분야에서는 사정이 좋지 못하다. 보통 이들이 접하는 [[사회통계]] 과목에서는 분포, 추정, 검정을 배운 후 분석이라 해 봤자 분산분석, 카이자승 분석, 회귀분석 정도를 맛보기로 접하는 데 그치기 때문에, 정말 의욕 있는 강사가 아니라면 요인 분석까지 가르칠 일이 없다. 그런데 막상 [[대학원]] 레벨에서는 당장 본인이 요인 분석을 써야 하거나, 혹은 요인 분석을 썼던 동료 연구자의 논문을 읽고 이해해야 한다. 그러다 보니 [[박사]]급 선배들에게 [[야매]]로 배우거나 아니면 돈 내고 어디서 방법론 특강을 듣거나, 그도 아니면 도서관에서 독학하는 수밖에 없게 된다.

도서관에 가기로 결정했다면, EFA의 경우 큰 도움을 받진 못할 가능성이 높다. CFA의 경우에는 [[2010년대]] 후반 들어 굉장히 좋은 책들이 많이 쏟아져나오고 있으며 그것들을 참고할 수 있지만, EFA는 상대적으로 오래 된 책들의 비율이 꽤 많은 편이다. 십수 년도 더 된 옛날의 통계 교과서에서 예컨대 "사각회전은 설득력 있는 통계적 처리가 어렵기 때문에 잘 쓰이지는 않는다" 는 문구가 발견된다 해도, 이를 '''[[2020년대]]에 접어들면서까지''' 곧이곧대로 믿을 이유가 전혀 없다! 그 동안 통계학자들이 뒹굴거리며 놀고 있었던 게 아니기 때문이다. 본인이 의욕이 있다면 해외원서 중에 임상심리학자 티모시 브라운(T.A.Brown)의 어려운 CFA 학술서를 손대 볼 수도 있다.[* Brown, T. A. (2006). Confirmatory factor analysis for applied research. Guilford Publications.] 그리고 참고로, 국내 번역서 중에는 《인자분석》 이라는 제하에 [[일본]]에서 만화 형태로 구성한 --귀여운 여주인공이 등장하는-- 통계 책도 있다(…).

[[구글링]]은 가급적 보조적인 용도로만 사용하자. 국내 웹상에 퍼져 있는 요인분석 관련 [[블로그]] 포스트나 [[티스토리]] 등에서 요인분석과 PCA를 엄밀하게 구분하고 각각의 용도와 장단점을 비교해 주는 사례가 그야말로 손에 꼽는다.

아무튼 이런 접근성 문제로 인하여 요인분석이 "어렵다", "고급이다" 라는 이미지를 흔히 뒤집어쓰게 되기도 하지만, 사실 '''깊이 파고들었을 때 안 어려운 양적 연구방법은 없다고 봐야 한다.''' 그리고 어차피 가장 쉽다고 여겨지는 일원분산분석 같은 것도 [[진입장벽]]이 낮아 보이는 것일 뿐, 정말 제대로 이해하려면 통계학의 꽃이자 가장 다재다능(versatile)한 분석인 [[회귀분석]]에 대한 명쾌한 지식이 뒷받침되어야 한다. [[통계적 방법]]은 기본적으로 '''연구문제에 봉착했을 때 그걸 설득력 있게 풀어내기 위한 수단'''일 뿐이며, 방법론의 [[진입장벽]]이 높아지는 이유는 그만큼 그 연구문제가 까다로워서 간단히 남을 설득하기가 힘들어지기 때문이다. 어려운 양적 분석은 연구자들을 괴롭히기 위한 수학 굇수들의 사디스틱한 수학문제 출제가 아니다(…). 요인분석의 '''기본적인 논리'''(logic) 자체는 [[고등학생]]이라 할지라도 납득할 수 있을 만큼 소박하다. 복잡한 개념을 단순 명쾌하게 교통정리하고(EFA), 자신이 정리한 결과물이 정말 합당한지 따져 보는(CFA) 과정이 바로 요인분석이다.

그렇다면 연구자가 정말로 결정해야만 하는 것은, 자신이 갖고 있는 연구문제가 그런 활동으로 해결하기에 적합한지이다. 사실, 눈돌아가는 휘황찬란한 통계적 처리보다 훨씬 더 중요한 것이 바로 이 지점이다. '''이 연구문제가 과연 요인분석을 쓰기에 적합한가?''' PCA를 쓰는 편이 더 낫지는 않은가? 경로분석(path analysis)을 써야 하는가, 아니면 CFA를 써야 하는가? 이런 걸 모르면 요인분석을 한답시고 [[SPSS]]를 당당하게 돌렸는데 "추출 방법: 주성분 분석" 이라는 텍스트가 떡하니 찍혀나오는(…) 사태가 벌어질 수 있다. 피부 트러블에 무턱대고 아무 연고나 치덕치덕 바르는 것처럼, 연구문제에 무턱대고 아무 분석이나 들이대는 것이다.

연구 현장에서 요인분석은 '''두 가지 용도'''로 쓰인다. 첫째, '''간단하게 설명하기 어려운 추상적 개념을 여러 하위개념으로 쪼개어 개념화해야 할 때'''에 쓰인다. 예컨대, [[성격심리학]]에서 정립한 [[Big5]]에 대한 설명이 바로 이런 노력의 가장 빛나는 성과물이라고 할 수 있다. 요인분석을 통해 "[[성격]]이 뭐야?" 라는 밑도끝도 없는 질문에 대답할 수 있게 된 것이다. 둘째, '''어떤 추상적 개념을 수치화하기 위한 [[척도]] 등의 [[측정]]도구를 타당화해야 할 때'''에 쓰인다. 세상에 '[[행복]]' 이나 '[[자존감]]' 같은 추상적인 개념에 대고 줄자로 폭과 높이 등을 재어 볼 수 있는 사람은 없다(…). 그래서 연구자들은 관련성이 있는 문항들에 얼마나 긍정적으로, 얼마나 강하게 응답하는지 간접적으로 재어 보려 한다. 여기서 '우리가 재어 본 결과가 실제로 그 개념에 일치한다' 고 얼마나 설득할 수 있는지는 요인분석 결과에 달렸다. [[신뢰도와 타당도]] 문서도 함께 참고하자.

방법론 상의 대항마로서 [[Q방법론]] 같은 것들도 존재하기는 하나, 학계에서의 요인분석의 위상에는 미치지 못하고 있다.

--여기까지 겨우 소개가 끝났다. 하지만 본격적으로 시작하기엔 아직 멀었다(…).--
방대한 [[https://www.youtube.com/watch?v=hv1QFfjwlOo|요인분석의 개념에 대해 직관적으로 설명한 영상]]이 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

요인 분석 (문단 편집)

캡챠